智能论文笔记

Efficient and Privacy Preserving Group Signature for Federated Learning

Sneha Kanchan , Jae Won Jang , Jun Yong Yoon , Bong Jun Choi

分类：机器学习

2022-07-12

联合学习（FL）是一种机器学习（ML）技术，旨在减少对用户数据隐私的威胁。培训是使用用户设备上的原始数据（称为客户端）进行的，只有称为梯度的培训结果被发送到服务器进行汇总并生成更新的模型。但是，我们不能假设可以使用私人信息来信任服务器，例如与数据所有者或数据源相关的元数据。因此，将客户信息隐藏在服务器中有助于减少与隐私相关的攻击。因此，客户身份的隐私以及客户数据的隐私是使此类攻击更加困难的必要条件。本文提出了基于组签名的FL的高效和隐私权协议。一个名为GSFL的新组合签名旨在保护客户数据和身份的隐私，而且考虑考虑到联合学习的迭代过程，还大大降低了计算和通信成本。我们表明，在计算，通信和信号成本方面，GSFL优于现有方法。另外，我们表明所提出的协议可以在联合学习环境中处理各种安全攻击。

translated by 谷歌翻译

BanglaSarc: A Dataset for Sarcasm Detection

Tasnim Sakib Apon , Ramisa Anan , Elizabeth Antora Modhu , Arjun Suter , Ifrit Jamal Sneha , MD. Golam Rabiul Alam

分类：自然语言处理 | 人工智能

2022-09-27

作为世界上口语最广泛的语言之一，孟加拉国的使用在社交媒体世界中也在增加。讽刺是一种积极的陈述或言论，其基本的负面动机在当今的社交媒体平台中广泛使用。在过去的许多年中，英语的讽刺检测有了显着改善，但是有关孟加拉讽刺检测的情况仍然没有改变。结果，仍然很难识别孟加拉国中的讽刺，缺乏高质量的数据是主要因素。本文提出了Banglasarc，该数据集是专门为孟加拉文本数据讽刺检测的数据集。该数据集包含5112条评论/状态和从各种在线社交平台（例如Facebook，YouTube）以及一些在线博客中收集的内容。由于孟加拉语中分类评论的数据收集数量有限，因此该数据集将有助于确定讽刺的研究，认识到人们的情绪，检测到各种类型的孟加拉语表达式和其他领域。该数据集可在https://www.kaggle.com/datasets/sakibapon/banglasarc上公开获得。

translated by 谷歌翻译

Interpretability by design using computer vision for behavioral sensing in child and adolescent psychiatry

Flavia D. Frumosu , Nicole N. Lønfeldt , A. -R. Cecilie Mora-Jensen , Sneha Das , Nicklas Leander Lund , A. Katrine Pagsberg , Line K. H. Clemmensen

分类：计算机视觉 | 机器学习

2022-07-11

观察是理解和研究人类行为和精神状态的重要工具。但是，编码人类行为是一项耗时，昂贵的任务，在这种任务中，可靠性可能难以实现，偏见是一种风险。机器学习（ML）方法提供了提高可靠性，降低成本并扩展行为编码以在临床和研究环境中应用的行为编码的方法。在这里，我们使用计算机愿景来得出黄金标准行为评级系统的行为代码或概念，为精神卫生专业人员提供熟悉的解释。从有或没有强迫症的儿童和青少年的临床诊断访谈视频中提取了特征。我们的计算评级与人类的专家评级相当，在负面情绪，活动水平/唤醒和焦虑方面。为了关注和积极影响概念，我们的ML等级表现合理。但是，凝视和发声的结果表明需要提高数据质量或其他数据方式。

translated by 谷歌翻译

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Aarohi Srivastava , Abhinav Rastogi , Abhishek Rao , Abu Awal Md Shoeb , Abubakar Abid , Adam Fisch , Adam R. Brown , Adam Santoro , Aditya Gupta , Adrià Garriga-Alonso

分类：自然语言处理 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-09

语言模型既展示了定量的改进，又展示了新的定性功能，随着规模的增加。尽管它们具有潜在的变革性影响，但这些新能力的特征却很差。为了为未来的研究提供信息，为破坏性的新模型能力做准备，并改善社会有害的效果，至关重要的是，我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战，我们介绍了超越模仿游戏基准（Big Bench）。 Big Bench目前由204个任务组成，由132家机构的442位作者贡献。任务主题是多样的，从语言学，儿童发展，数学，常识性推理，生物学，物理学，社会偏见，软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号，Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为，跨越了数百万到数十亿个参数。此外，一个人类专家评估者团队执行了所有任务，以提供强大的基准。研究结果包括：模型性能和校准都随规模改善，但绝对的术语（以及与评估者的性能相比）；在模型类中的性能非常相似，尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分，而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标；社交偏见通常会随着含糊不清的环境而随着规模而增加，但这可以通过提示来改善。

translated by 谷歌翻译

Deep Learning based Framework for Automatic Diagnosis of Glaucoma based on analysis of Focal Notching in the Optic Nerve Head

Sneha Dasgupta , Rishav Mukherjee , Kaushik Dutta , Anindya Sen

分类：计算机视觉

2021-12-10

视网膜眼底图像的自动评估是涌现为最重要的早期检测和治疗渐进眼疾病的工具之一。青光眼导致视力的进步退化，其特征在于光学杯形状的变形和血管的变性导致沿神经垂体边缘形成凹口的形成。在本文中，我们提出了一种基于深度学习的管道，用于从数字眼底图像（DFIS）的光盘（OD）和光学杯（OC）区域的自动分割，从而提取预测青光眼所需的不同特征。该方法利用了神经古代轮辋的局灶性凹口分析以及杯盘比值值作为分类参数，以提高计算机辅助设计（CAD）系统的准确性分析青光眼。支持基于向量的机器学习算法用于分类，基于提取的功能将DFIS分类为青光眼或正常。在自由可用的DRISHTI-GS数据集上评估了所提出的管道，得到了从DFIS检测青光眼的93.33％的精度。

translated by 谷歌翻译

Generating Rich Product Descriptions for Conversational E-commerce Systems

Shashank Kedia , Aditya Mantha , Sneha Gupta , Stephen Guo , Kannan Achan

分类：自然语言处理 | 机器学习

2021-11-30

通过言语技术的最新进步和智能助理的引入，如亚马逊Alexa，Apple Siri和Google Home，越来越多的用户通过语音命令与各种应用程序进行交互。电子商务公司通常在其网页上显示较短的产品标题，在需要简洁时，可以在其网页上进行人工策划或算法生成。然而，这些标题与自然语言不同。例如，“幸运的魅力面筋无麸质谷物，20.5盎司盒装幸运魅力含有无麸质”可以在网页上显示，而在基于语音的文本到语音应用程序中不能使用类似的标题。在这种对话系统中，易于理解的句子，例如“20.5盎司的幸运魅力麸质谷物”是优选的。与显示设备相比，可以向用户呈现图像和详细的产品信息，在与语音助手相互作用时，需要传达最重要信息的产品的短标题。我们提出Ebert，通过进一步预先训练电子商务产品描述语料库中的BERT嵌入来进行序列到序列方法，然后微调结果模型，以产生来自输入Web标题的短，自然的语言标题。我们对现实世界行业数据集的广泛实验，以及对模型输出的人类评估，表明Ebert摘要优于相当的基线模型。由于该模型的功效，该模型的版本已在真实世界中进行部署。

translated by 谷歌翻译

Predicting Document Coverage for Relation Extraction

Sneha Singhania , Simon Razniewski , Gerhard Weikum

分类：自然语言处理 | 人工智能

2021-11-26

本文介绍了预测关系提取的文本文档的覆盖范围的新任务（重新）：该文件是否包含给定实体的许多关系元组？覆盖预测可用于选择具有大型输入基层的知识库建设的最佳文档。为研究这个问题，我们为520个实体提供了31,366个不同文件的数据集。我们分析了文档覆盖的相关性与长度，实体提及频率，alexa等级，语言复杂性和信息检索分数的特征相关。这些特征中的每一个都只有适度的预测力量。我们采用方法将具有统计模型的功能相结合，如TF-IDF和BERT语言模型。该模型结合特性和BERT，HERB，实现了F1得分高达46％。我们展示了两种用例的覆盖预测的效用：KB建设和索赔驳斥。

translated by 谷歌翻译